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利用 结构 化 SVM 结合 CNN 的 层次 化 目标 检测 与 人 体 姿态 估计 方法 - 
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摘 E: 针对 现 有 姿态 估计 方法 不 能 准确 提取 特征 参数 的 问题 ， 提 出 了 一 种 基于 结构 化 支持 向 量 机 (SSVM) 与 卷 
积 神经 网 络 (CNN) 的 层次 化 模型 。 首 先 ,， 展示 了 一 个 基于 PS 部 件 模型 的 SSVM 如 何 实现 为 一 个 两 层 的 神经 网 络 ， 
其 中 第 一 层 是 卷 积 层 ， 另 一 层 是 损失 增强 推理 层 ; 通过 将 模型 的 结构 化 形式 转换 为 模型 中 的 一 个 神经 网 络 ， 提 出 的 
方法 可 以 同时 学 习 结 构 模 型 和 外 观 模型 ， 然 后 反 向 传播 误差 以 学 习 底 层 的 可 学 习 参 数 ， 这 些 参数 可 从 外 观 模型 特征 
中 提取 出 来 ; 最 后 ,将 SSVM 模型 转换 为 神经 网 络 模型 ， 将 误差 反 向 传播 到 较 低层 ， 并 计算 确切 的 SSVM 损失 ， 同 
时 通过 基于 次 梯度 的 方法 来 学 习 原 始 SSVM。 将 该 模型 与 当前 较为 先进 的 识别 模型 进行 了 对 比 ， 结 果 证 明 提出 的 层 
次 化 模型 的 识别 成 功率 比 对 比方 法 平均 高 6%， 具 有 更 强 的 识别 性 能 。 
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Hierarchical target detection and human body attitude estimation based on structured SVM and CNN 
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Abstract: Aiming at the problem that the existing attitude estimation method can not accurately extract the feature 
parameters, this paper proposed a hierarchical model based on structured support vector machine (SSVM) and convolutional 
neural network (CNN) . First, it showed how a SSVM based on the PS component model could be implemented as a 
two-layer neural network, where the first layer was the convolutional layer and the other layer was the loss-enhanced 
inference layer. Then, by transforming the structured form of the model into a neural network in the model, the proposed 
method could simultaneously learn the structural model and the appearance model, and then backpropagated the error to 
learn the underlying learnable parameters. These parameters could be derived from the appearance model features. Extracted 
out. Finally, the SSVM model was transformed into a neural network model, the error was propagated back to the lower 
layer, and the exact SSVM loss was calculated, while the original SSVM was learned by the sub-gradient-based method. 
Comparing the model with the current advanced recognition model, the results show that the proposed success rate of the 
hierarchical model is 6% higher than the comparison method and has stronger recognition performance. 
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分 解 模型 .试图 通过 参数 化 几何 变量 来 获得 更 好 的 先 验 模型 ， 
从 而 改进 图 像 结 构 。 但 是 如 果 模 型 得 到 改进 ， 所 有 这 些 方法 
前 ， 深 度 学 习 和 特征 学 习 是 解决 分 类 、 检 测 等 问题 的 都 必须 学 习 结构 模型 参数 。Latent SVM 是 学 习 这 些 模型 参数 
流行 方法 。 包 括 使 用 卷 积 神经 网 络 〈convolutional neural 的 标准 方法 。 文 献 [8] 在 特征 提取 阶段 从 CNN. 中 提取 了 一 个 
network, CNN) 进行 人 脸 检 测 0 习 ， 使 用 深度 神经 网 络 (deep 金字 塔 特 征 , 然后 缓存 提取 的 特征 , 再 在 第 二 阶段 使 用 latent 
neural networks, DNN) 进 行 行人 检测 Bi， 使 用 DNN 进行 人 体 SVM 进行 学 习 ; 在 第 二 阶段 中 ，latent SVM 通过 在 SVM 优 
姿态 估计 (human pose estimate, HPE) 由， 使 用 受 限 玻 尔 效 化 和 推理 组 合 优化 之 间 切 换 来 学 习 所 有 模型 参数 。 然 而 ， 这 
曼 机 (restricted Boltzmann machine, RBM) 进 行人 脸 特 征 跟踪 外 ” 种 方法 存在 固有 的 问题 ， 因 为 这 种 方法 分 为 两 个 不 同 的 阶段 
以 及 使 用 深度 学 习 对 物体 分 割 进行 形状 先 验 检测 以 及 使 用 深 进行 ， 它 不 能 学 习 由 深度 学 习 特 征 而 提取 的 参数 。 而 且 由 可 
度 网 络 进行 物体 检测 等 。 为 了 联合 使 用 latent SVM 和 深度 学 学 习 的 特征 所 提取 的 参数 不 能 基于 Latent SVM 的 误差 来 更 
习 ， 通 常 是 使 用 DNN 提取 特征 ， 然 后 用 于 latent SVM 的 学 新 。 
习 ， 构 建 分 类 器 。 基于 上 述 分 析 ， 为 了 解决 现 有 姿态 估计 方法 不 能 准确 提 
一 些 学 者 提出 了 独特 的 解决 方法 , 例如， 文献 [6] 提 出 ] 取 特 征 参数 的 问题 ， 提 出 基于 结构 化 SVM 卷 积 神经 网 络 的 

种 带 有 附加 潜 变 量 的 图 形 结构 树 模 型 ， 精 心 设计 了 叶 节 点 层次 化 模型 。 部 件 模型 是 视觉 识别 中 一 种 重要 的 结构 化 建 模 
变 体 和 潜在 节点 ， 它 们 控制 叶 节 点 的 变化 ， 而 增加 了 一 个 用 方法 ， 特 别 是 DMP (deformable part model) 和 PS (pictorial 
于 推理 的 循环 模型 。 文献 [7] 关 注 的 是 将 部 位 聚 类 为 多 模 态 可 structure) 模型 .1 中 。DPM 一 元 过 滤器 方法 与 DPM 推理 过 程 
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中 的 卷 积 操作 完全 相同 , 而 PS 作为 部 件 模型 与 DPM 有 着 相 ”学 上 相连 的 两 个 部 件 ， 而 每 个 节点 表示 一 个 身体 部 件 。 通 常 
似 的 结构 ， 该 模型 将 部 件 划分 为 多 个 子 类 型 ， 通 过 子 类 型 的 用 矩形 来 表示 节点 : 1=(%y,0,s) 。 其 中 ，(%y) 表 示 部 件 的 位 
搭配 组 合 可 表示 数目 庞大 的 姿态 形式 。 根 据 人 体 部 位 和 人 体 — BD de D id 表示 部 件 的 尺度 。 则 人 体 的 姿态 
部 
样 


部 位 类 型 设计 PS 一 元 滤波 器 ， 类 似 于 CNNI0 中 的 卷 积 层 一 EUR L-(.b..1). PS 模型 方法 是 根据 对 身体 各 个 部 件 
f, iX PS 过 滤器 定义 了 外 观 模 型 的 权重 ， 因 为 它 给 出 了 特 之 间 ae. 本 文 使 用 的 是 基于 树 型 结构 的 PS 
征 相 似 性 分 数 。 该 方法 可 以 同时 学 习 结 构 模 型 和 外 观 模型 ， 模型 ， 如 图 2 所 示 ， 将 人 体 的 上 半身 分 成 头 部 、 躯 干 、 右 上 
然后 反 向 传播 误差 以 学 习 底 层 的 可 学 习 参 数 。 最 终 的 对 比 实 臂 、 右 下 臂 、 左 上 臂 、 左 下 臂 。 
验 也 证 明了 提出 的 基于 结构 化 SVM 卷 积 神经 网 络 的 层次 化 
人 体 姿 态 估 计 方 法 具有 较 强 的 识别 性 能 。 
1 ”模型 和 检测 推理 
1.1 结构 化 支持 向 量 机 (structured support vector 
machines, SSVM) 两 层 神经 网 络 
为 了 解决 每 个 人 体 部 位 可 能 存在 的 不 同 外 观 ， 设 计时 使 
每 个 人 体 部 位 模型 都 包含 多 个 不 同 的 部 位 类 型 。 从 训练 图 像 
获得 身体 部 位 ， 根 据 它 们 在 相对 于 相 邻 关节 的 图 像 坐 标 中 的 
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相对 关节 位 置 ， 把 它们 聚 类 成 部 位 类 型 。 这 种 聚 类 方法 的 基 

本 假设 是 ， 同 一 组 相关 关节 的 位 置 外 观 上 将 很 相似 。 共 现 模 q2 上 半身 PS 模型 

型 考虑 了 在 什么 情况 下 ， 根 据 偏差 系统 两 个 相 邻 部 分 会 共同 Fig.2 Upper body PS model 

出 现 0223。 相 邻 节点 的 每 种 混合 类 型 都 有 相关 的 偏差 。 在 众 假设 人 体 的 各 个 部 件 之 间 是 相互 独立 的 ， 设 工 代 表 人 体 
所 周知 的 图 像 结 构 模 型 中 结合 这 些 措施 ， 其 边缘 是 根据 以 下 各 部 件 位 置信 息 ，7 代表 的 是 图 像 信息 ，D 代表 人 体 结 构 模 


假设 进行 量化 的 ， 假 设 放置 部 位 所 需 的 能 量 仅 基于 相对 距离 ”型 参数 集 。 估 计 某 一 幅 图 像 ! 中 人 体 的 姿态 上 ， 根 据 Bayes 

的 二 次 变化 ， 例 如 ， 从 相对 父 节点 的 锚 点 位 置 拉 伸 或 压缩 强 。 “理论 ， 其 后 验 概率 可 以 表示 为 L617 

得 所 需 的 能 量 。 根 据 文献 [8] 提 出 的 方法 ， 直 接 开 发 出 了 这 些 

模型 。 他 们 将 这 三 个 模型 ， 即 共 现 模型 、 可 变形 模型 和 外 观 

模型 ， 组 合成 一 个 单一 的 大 模型 。 在 本 文 的 研究 中 把 前 两 种 。 其 中 ，P(L/1.D) 表示 当 模型 为 六 、 图 像 1 的 情况 下 ， 人 体 的 

模型 称 为 结构 模型 。 姿态 是 z 的 后 验 概率 , 4O7L.D) 代表 外 观 模型 上 的 部 件 ; 和 在 

站 经 H rh SE — E: 

zm. e 特定 的 位 置 4 的 图 像 特征 的 似 然 程度 。 而 二 元 约束 项 lL) 

E (如 图 1 中 的 损失 增强 推理 层 ) 。 通 过 将 模型 的 结构 化 形 ”表示 运动 学 上 相连 的 两 个 部 件 1 和 /的 位 置 的 先 验 概率 。 

式 转换 为 模型 中 的 一 个 神经 网 络 ， 使 其 可 以 同时 学 习 结 构 模 本 文 使 用 了 一 种 约束 的 PS 模型 ， 如 图 3 所 示 ， 它 增加 

型 和 外 观 模型 ， 然 后 通过 反 向 传播 误差 以 学 习 底层 的 可 学 习 lea) 和 7(lus) 来 限制 诺 干 和 头 部 的 方向 是 竖 直 的 ， 并 通过 

pubes 数 可 从 外 观 模型 特征 中 提取 出 来 (图 1 中 的 CNN ”给 式 (1) 增 加 约束 条 件 来 实现 。 这 是 因为 通常 会 遇 到 只 有 上 
) 。 本 文 提出 的 方法 将 SSVM 模型 转换 为 神经 网 络 模型 ， 。 身 可 见 的 图 像 ， 而 在 这 时 ， 通 常 是 假设 人 体 的 头 部 处 于 驱 二 

Ra E E 之 上 。 

并 计算 确切 的 SSVM 损失 ,同时 通过 基于 次 梯度 的 方法 来 学 

习 原 始 SSVM。 
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| C 为 了 减少 头 部 和 躯干 的 搜索 空间 ， 提 高 正确 估计 人 体 姿 
OE) - 态 的 可 能 性 ， 式 中 y(*) 表示 在 竖 直 方向 附近 的 0 值 概率 是 均 
| le 匀 的 ， 而 在 其 他 方向 上 的 概率 为 零 。 此 外 ， 为 了 提高 上 、 下 
Suomi an 手臂 的 姿态 估计 准确 率 , 通常 情况 下 ,会 在 确定 躯干 位 置 后 ， 
É 根据 运动 学 上 的 先 验 概率 w 来 限制 手臂 动作 。 
| .Wi | 
SSVM-PS 层 | 
Sws] 
m 


HOG 提 取 的 数据 


图 1 提出 的 SSVM 两 层 神经 网 络 
Fig. 1 Presented by the SSVM two-layer neural network 
1.2 基于 约束 的 PS 模型 图 3 基于 约束 的 PS 模型 
PS 模型 将 人 体 描 述 成 一 个 无 向 图 , 无 向 图 的 边 表示 运动 Fig.3 Constraint-based PS model 
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13 子 模型 

将 共 现 模型 .可 变形 模型 和 外 观 模型 组 合成 一 个 大 模型 ， 
这 三 个 子 模型 定义 如 下 : 

a) 外 观 模型 。 外 观 模型 包含 各 个 部 位 的 单独 过 滤器 ， 如 
头 部 滤波 器 和 身体 滤波 器 。 图 像 表示 通常 具有 多 个 通道 ， 
此 这 些 模 型 都 由 包含 滤波 器 大 小 乘 以 通道 数量 的 矩阵 表示 。 
对 于 5x5,32 或 64 通道 的 滤波 器 ,其 典型 值 分 别 为 5x5x32 
或 5x5x64。 通 过 确定 滤波 器 的 点 积 和 相同 大 小 的 特征 ， 可 
以 获得 特征 的 特定 分 数 。 这 些 滤波 器 位 于 Rs* 域 中 , 其 中 s 是 
滤波 器 大 小 , C 是 通道 数 。 对 于 每 个 部 位 和 部 位 的 每 种 类 型 ， 
都 有 一 个 关联 的 外 观 模型 滤波 器 。 由 滤波 器 的 创建 的 相似 度 


Scoren (I) =W D (21:9) 6) 

b) 共 现 模型 。 假 设 某 一 部 位 有 普 个 混合 类 型 ， 而 相 邻 部 
位 有 "个 混合 类 型 ， 那 么 这 两 个 部 位 之 间 的 总 偏差 为 mxn 。 
这 个 模型 给 出 了 局 部 得 分 和 成 对 得 分 的 总 和 。 对 于 父 节 点 ; 
和 子 节点 j ， 共 现 分 数 六 为 


tt 
SCOT esoocurrence (li, t; )= bj i (4) 


可 以 把 这 视 为 偏向 一 些 特定 局 部 类 型 的 偏差 ， 以 及 父 类 
和 子 类 之 间 的 配对 关系 。 例 如， 如果 内 的 值 较 高 ,这 意味 着 
父 类 部 位 编号 为 3 的 类 型 1 可 能 会 连接 到 子 类 部 位 编号 为 4 
的 类 型 2。 
0c) 可 变形 模型 。 从 每 个 父 类 4 到 每 个 子 类 i， 都 有 子 类 对 
父 类 的 定位 位 置 ， 其 中 从 父 类 到 子 类 ， 总 共有 xi 个 定位 点 
〈 锚 点 ) 。 训 练 锚 点 的 位 置 ， 以 便利 用 所 有 可 能 的 连接 类 型 
对 其 进行 简单 的 建 模 。 在 SSVM 训练 之 前 ， 锚 点 位 置 必 须 可 
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$=argmax WD, (x, y) (8) 


D 


这 是 预测 函数 。3 的 值 是 对 一 个 测试 
预测 。 
1.5 SSVM 的 次 梯度 优化 

SSVM 的 目标 是 通过 学 习 每 个 训练 数据 的 最 大 边缘 分 类 
器 ， 来 产生 结构 预测 。 像 马尔 可 夫 随 机 场 (Markov random 
filed, MRF) 或 条 件 随 机 场 这 样 的 概率 图 模型 ， 可 以 在 学 习 
阶段 使 用 SSVM 来 学 习 权 重 参数 0849]。SSVM 这 种 算法 和 
SVM 不 一 样 , SVM 可 以 简单 地 插入 数据 以 进行 学 习 或 分 类 ， 
相反 ，SSVM 是 一 种 在 使 用 前 需要 指定 推理 、 损 失 和 特征 模 
块 的 框架 。 例 如 ， 如 果 将 SSVM 应 用 于 MRF， 则 必须 指定 
SSVM 将 学 习 的 MRF 结构 和 MRF 推理 算法 ， 以 及 MRF 特 
征 函数 、 损 失 函 数 和 损失 增强 推理 算法 。 损 失 增 强 推 理 算 法 
是 具有 损失 函数 的 推理 算法 PC0。 接 下 来 ，SSVM 根据 训练 数 
据 学 习 使 预测 最 大 化 的 权重 。SSVM 学 习 结构 预测 函数 ， 如 
式 (9) 所 示 。 


像 中 部 位 位 置 的 
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mina «YE 

SLVEW -O, (x, y,)& (9) 

2maxW -,, (xX, y)+ A, y;) 
通过 把 上 述 目标 函数 最 小 化 ， 本 文 可 以 学 习 使 预测 函数 
等 式 〈8) 的 训练 精度 最 大 化 的 参数 WwW 。SSVM 目标 函数 式 
(9) 可 以 通过 次 梯度 方法 求解 ,目标 损失 函数 的 次 梯度 定义 


用 ,因此 对 每 种 外 观 类 型 ,使 用 简单 K- 均 值 聚 类 来 计算 部 位 
类 型 ， 以 创建 关节 的 不 同类 型 。 本 文 使 用 组 件 的 混合 来 解决 
可 能 部 位 外 观 的 许多 类 型 。 令 peP 是 第 P 个 身体 部 位 ， 其 中 
P={1.…,p,} 是 所 有 部 位 的 集合 。 令 kek 是 特定 部 位 的 第 种 


为 
Pob - d Qi) Qi) en 
其 中 :0 外 是 最 小 化 目标 函数 式 (9) 。 对 于 训练 数据 的 第 4b 
批 ， 梯 度 是 
mes 8 3)- 04 G3) WD 


JU, 其 中 X= 全 …,} 是 特定 部 位 所 有 类 型 的 集合 。 令 K, R 
示 特 定 部 位 ? 的 类 型 x 的 总 数 。 

首先 将 训练 图 像 部 位 peP 聚 类 为 K, RK. WE, XL 
第 i 个 样本 的 SSVM 特征 函数 。 将 一 元 特征 P (xy) 定义 为 
o,(x) ， 以 便 在 位 置 y; 处 进行 评估 。 定 义 成 对 特征 为 


y;--[|dw dy qd dyi] EP, drj =xXp; 一 Xj+ 


Vil, o KIOK Y RERA [m], VEE. IA G 的 一 元 特征 


和 成 对 特征 进行 积分 ,得 到 @。=[®， Y], AP Pn a 表示 所 
有 总 和 。 由 边缘 站 的 可 变形 模型 获得 的 分 数 为 


Scoreunon 人 用 = 肌 多 (5) 


14 组 合子 模型 


其 中 : 是 根据 损失 增强 推理 得 到 的 最 违反 的 约束 条 件 。 
在 本 文中 ， 本 文 把 损失 增强 推理 定义 为 


3=arg max A(y, y) *W -, (x;, y) 


12 
—W.®, (xy) ( ) 


PI, RR RR 
AOT) 是 标准 1 got dti A 


框 交集 。 然 后 ， 应 用 正常 的 随机 梯度 下 降 来 进行 梯度 更 新 。 
2 ”损失 增强 推理 函数 的 求解 


本 文通 过 反 向 传播 进一步 向 下 传递 到 神经 网 络 的 较 低层 ， 
扩展 了 先前 定义 的 SSVM 次 梯度 优化 , 这 是 因为 SSVM 可 以 
实现 为 两 层 神 经 网 络 。 顶 层 是 损失 增强 推理 层 ， 底 层 是 神经 
网 络 中 正常 的 线性 层 。 在 将 PS 作为 CNN 的 特殊 情况 下 ， 底 


其 中 ; Al(y,y;)=1 


YE 


对 于 图 形 结构 中 的 每 个 节点 和 边缘 ， 本 文 将 所 有 偏差 权 
、 可 变形 权重 和 外 观 滤波 器 权重 连接 成 数据 结构 的 两 种 类 
第 一 种 是 基于 组 件 的 结构 类 型 ， 第 二 种 是 向 量 类 型 。 通 
过 使 用 向 量 类 型 数据 结构 , 创建 了 一 个 包含 可 学 习 HPE 参数 
的 大 向 量 W ， 用 于 SSVM 学 习 。 


scorett y) =F w ©, (x) 2H Wi, w (6) 
ieV üjeE 


Liz 
[uy 


MH 
c 


; 


或 以 矩阵 形式 表示 为 
score(t, y)-W -, (x. y) (7) 
为 了 找到 分 数值 最 大 的 位 置 y>， 上 面 的 等 式 变 为 


层 是 标准 卷 积 层 。 

为 了 通过 次 梯度 优化 来 求解 SSVM， 必 须 计 算 损 失 增强 
推理 和 ,以 便 可 以 计算 式 (10) 中 最 违反 约束 的 特征 Da Qs) 。 
注意 到 ，w 对 了 可 能 位 置 上 的 所 有 9,058) 的 滑动 点 积 , 实际 
上 是 一 个 卷 积 运算 ， 完 全 等 于 CNN 中 的 卷 积 层 ， 相 应 的 前 
贵 是 


zz 
zi 


y) = 3 WI G0, (x. y Y) (13) 


AE, XX (13) 将 SSVM 的 底层 定义 为 两 层 神经 网 络 。 
实际 上 ,数量 是 Bj Gu) 与 PS 一 元 滤波 器 Wi 卷 积 的 响应 映射 。 
这 里 ， 把 o, 表示 为 所 有 Oy 的 级 联 。 使 用 构造 的 SSVM-PS 
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" 
m 


IV 


china 


u 


层 ， 并 在 这 个 两 层 神经 网 络 环境 中 定义 损失 
然 ， 损 失 增 强 推 理 层 执行 损失 增强 推理 并 寻 
弛 损失 ，?》 是 使 损失 增强 推理 目标 函数 最 大 
参数 。 可 以 使 用 式 (6) (8) 和 (13) 把 损 
函数 式 (12) 重 写 为 


增强 推理 层 。 显 
找 目标 函数 的 松 
化 的 最 违反 约束 
失 增 强 推理 目标 


L, = max AQ, y) + J (0, (y) -D(x Yr )} 
: veV 


* PALA UE (x y) -W,, Yy (x. yi) 
* X6), -67),) 


在 神经 网 络 意义 上 ， 可 以 把 0, »)- 0 
为 从 下 层 矩 阵 中 选取 两 个 标量 并 执行 减法 。 


将 SSVM 的 上 层 定义 为 两 层 神经 网 络 ， 可 以 看 到 式 (8) 中 


} (14) 


r Xirs Yi) € — XL 
Ab, x C14) 


IL 


Liz 


位 于 卷 积 层 的 底部 。 共 现 模 型 和 可 变形 模 
的 权重 位 于 损失 增强 推理 层 的 顶部 。 

接 下 来 ， 定 义 两 层 神经 网 络 的 反 向 传播 
损失 增强 推理 层 ) 的 梯度 是 


OL, 1 " 
W 732,08. (xs: 5,)- Y; (x. y») 


IL 


Iw 现在 被 分 成 两 个 不 同 的 层 。 外 观 模型 方程 式 G) 的 权 


型 式 (4) C5 


JU. m CHp 
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小 范围 为 [110-450]x[110-450]。 在 一 些 图 像 中 存在 一 个 或 两 
个 完整 的 人 体 。 图 像 中 的 人 体 尺寸 也 有 所 不 同 。 数 据 集中 的 
人 体 姿 态 变 化 : 从 坐 着 到 站 着 ， 腿 部 和 手臂 可 能 会 做 着 诸如 
武术 或 体操 等 运动 。 
该 数据 集 不 适合 直接 在 本 文 算 法 中 使 用 ， 因 此 对 其 进行 
了 预 处 理 ， 如 下 所 示 。 把 训练 数据 与 训练 标签 镜像 翻转 ， 然 
后 添加 到 原始 训练 数据 中 。 因 此 ， 本 文 有 一 组 双 倍 大 小 的 训 
练 数据 。 然 后 ， 找 到 每 两 个 关节 的 中 间 点 ， 从 而 总 共 获 得 26 
个 关节 点 和 中 间 关 节点 。 本 文 将 这 些 点 改变 为 方 框 ， 其 中 方 
框 大 小 是 通过 对 训练 数据 中 关节 的 长 度 取 平 均值 来 计算 的 。 
在 这 个 阶段 ， 对 每 个 方 框 ， 把 本 文 训 练 算法 中 标签 定 》 
(X Yo X y2) 。 每 个 训练 标签 有 26 个 方 框 ,包含 ?个 图 像 空 间 。 
然后 ， 使 训练 图 像 通过 HOG 金字 塔 特征 。 在 这 个 过 
于 同一 张 训 练 图 像 ， 调 整 其 大 小 以 获得 具有 不 同 尺 寸 的 多 
张 图 像 , 这 被 称 为 图 像 金 字 塔 。 使 用 HOG 提取 图 像 金字 塔 ， 
以 获得 特征 金字 塔 ， 然 后 将 其 填充 到 零 矩 阵 中 以 获得 Ga) 。 
把 标签 添加 到 特征 金字 塔 参数 中 ， 以 生成 实际 标签 。 然 后 ， 
将 这 个 实际 标签 和 批 处 理 数 据 转 换 成 内 存 映 射 数据 库 , 这样， 
Caffe GPU 库 可 以 更 有 效 地 处 理 这 些 数据 。 
3.2 神经 网 络 结构 
本 文 神经 网 络 结构 如 下 : 数据 层 一 卷 积 层 CnnFeat 一 卷 


HT 


ui 
H 


i (15) 
+a], - [67 )]] 
其 中 : [000] 是 一 个 向 量 ， 其 元 素 除 了 a 处 位 置 的 元 素 之 外 全 
部 为 零 。 目 标 函 数 对 响应 映射 层 @.(xz) 的 梯度 为 
Asc 790«3)-9 0,3) Vy EY, vvev (16) 


S 


H: nRa-b, Wjó(b-r, frUjo(b-0, ixuf LGB 
下 面 的 方法 验证 : 创建 与 6.606») AKEE, 然后 令 D 


位 置 为 +1， 令 加 位 置 为 -1, EJ in RUE vm 的 点 ， 则 令 访 
位 置 的 值 为 0。 上 面 指定 的 两 个 梯度 定义 了 损失 增强 推理 层 。 


x 
结构 的 外 观 层 ， 


根据 SSVM-PS 层 的 反 向 传播 规则 来 定义 图 


本 文 可 以 对 CNN 的 卷 积 层 使 用 正常 的 反 向 传播 规则 。 


H 


要 用 最 大 化 式 (14) 的 方法 来 求解 了 ， 


本 文 使 用 标准 最 


大 和 (max-sum) 算法 。 最 大 和 算法 的 目的 是 


通过 以 下 形式 ， 


在 图 G={V,8} 的 情况 下 找到 组 合 优化 问题 的 


L=argmax Dm (1)+ 9 e (1.1;) 
iev jeE 


组 合 优化 问题 式 (14) 的 目标 函数 是 


(17) 


jcargmax JAD, Qu.) AO Ya )} 


在 神经 网 络 的 最 顶层 执行 最 大 和 算法 ， 
目标 问题 。 


3 si 


十 p? {Wa E. Gs, y) + (B7 NI 
JEE 


(18) 


来 求解 这 个 组 合 


与 训练 神经 网 络 的 方式 相同 ， 本 文 用 随 
SSVM。 本 文 网 络 架构 是 将 正常 的 CNN 与 
相连 接 ， 作 为 最 后 两 层 。 在 深度 学 习 村 
architecture for feature extraction, Caffe) 中 ， 
作为 一 层 实现 。 
3.1 数据 准备 

本 文采 用 了 PARSE 数据 


Nar 


T 


括 100 


机 梯度 下 降 训练 
SSVM 神经 网 络 
E 2H (convolution 


把 损失 增强 推理 


个 正面 训练 样本 


和 205 个 正面 测试 样本 。 该 数据 集中 的 每 张 
的 整个 身体 ， 通 常 是 在 运动 环境 中 。 对 于 每 
了 相应 的 人 体 关 节 位 置 。 在 图 像 中 ， 一 些 人 


uh om 


图 像 都 显示 了 人 
个 样本 ， 都 标记 
体 部 位 被 遮挡 ， 


但 提供 了 人 体 关 节 位 置 的 估计 。 每 个 样本 总 共 标 注 了 14 个 关 


W, BEIDE. CP. JR. XH. CHER 


右 腿 。 图 像 的 大 


积 层 SSVM-PS 一 损失 增强 推理 层 。 将 卷 积 层 置 于 中 间 ， 以 此 
可 以 在 中 间 学 习 深 度 学 习 特 征 提 取 参 数 。 另 外 ， 权 重 是 随机 
初始 化 的 。 本 文 混合 模型 中 每 个 节点 类 型 如 下 : 

Miu, = {5,5,5,6,6,6,6,5,5,5,5,5,5,5,5,6,6,6,6,5,5,5,5,5,5,5} 

这 意味 着 ， 第 一 个 节点 〈 头 节点 ) 有 五 种 不 同 的 混合 类 
型 ， 第 二 个 节点 有 五 种 不 同 的 混合 类 型 ， 依 此 类 推 。 总 共有 


2M..08 种 混合 类 型 。SSVM-PS 层 的 大 小 表示 为 
5x5x256x138=883200 。 该 损失 增强 推理 层 有 
LEM Maus 7-702 个 权重 元 素 , 以 及 133x4=532 个 


Was 权重 元 素 。 因 此 ， 损 失 增 强 推理 层 总 共有 1234 个 权重 
元 素 。 

SSVM-PS 层 共 有 5x5x256x138=883200 个 权重 元 素 。 
本 文 将 CnnFeat 的 内 核 大 小 设置 为 2x2x32， 因 此 CnnFeat 
总 共有 2x2x32x256 = 32768 个 权重 元 素 。 因 此 ， 系 统 总 
共有 883200+1234+32768=917202 个 权重 元 素 。 设 置 各 
批 次 大 小 为 50, EERI 2, 为 140x140 。 数 据 层 有 
50x32x140x140=31360000 个 元 素 。 CnnFeat 层 
50x256x139x139-247308800 个 元 素 。SSVM-PS 层 有 
50x138x135x135=125752500 个 元 素 。 总 共 需 要 
404421300 个 单元 来 存储 本 文 多 层 神经 网 络 数据 。 需 求 的 
GPU 总 内 存 为 1284714404 字 节 。 

本 文 以 0.005 的 学 习 率 训练 了 超过 3000 RER. EH 
ZL 正则 化 项 ， 系 数 为 0.1， 没 有 动量 参数 。 
3.3 Caffe 层 实现 

在 数据 屋 中 的 D, (x) 通过 CnnFeat 层 之 后 获得 e, (xa), 
进一步 向 前 通过 SSVM-PS 层 产生 9, Gs) 作为 响应 映射 或 热 
映射。 损失 增强 推理 层 使 用 Caffe 库 中 的 python ARI. $h 
失 增 强 推 理 层 使 用 最 大 和 算法 来 计算 目标 函数 的 值 。 最 大 和 
算法 的 输出 包含 : 最 优 水 平和 最 违反 约束 》， 其 输出 特征 值 
分 别 为 9. Q3) I D Gv) 。 通 过 搜索 每 个 金字 塔 等 级 ， 然 
后 找到 最 佳 最 大 边际 得 分 ， 从 而 得 到 最 大 边际 值 最 大 化 方程 
X (18) 以 及 损失 函数 A(5,y)。 用 新 金字 塔 等 级 中 的 较 高 分 
数 取 代 以 前 的 结果 。 
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3.4 结果 集中 的 前 8 个 图 像 。 识 别 成 功率 是 平均 pcp， 这 个 数据 是 可 
基于 PARSE 数据 集 ， 本 文 训 练 和 测试 了 提出 的 方法 。 以 量化 的 。 其 中 ,文献 [6] 提 出 的 带 有 附加 洪 变 量 的 图 形 结构 
根据 式 〈12) 的 损失 增强 推理 损失 。 将 本 文 的 结果 与 文献 。 树 模型 以 及 文献 [7] 提 出 的 多 模 态 可 分 解 模 型 ， 由 于 缺乏 较 好 
[6~8] 得 到 的 结果 进行 了 比较 ， 如 图 4 所 示 。 正 确 检 测 标 准 为 。 的 先 验 模型 ,导致 了 其 识别 性 能 受到 了 较 大 限制 。 而 文献 [8] 
PCP (percentage of correct parts ) [I]， 如 果 检 测 到 的 肢体 端点 方法 不 能 学 习 由 深度 学 习 特征 而 提取 的 参数 。 而 且 由 可 学 习 
和 地 面 肢体 端点 之 间 的 距离 在 肢体 长 度 的 一 半 之 内 ， 则 认为 的 特征 所 提取 的 参数 不 能 基于 Latent SVM 的 误差 来 更 新 。 本 
肢体 被 正确 检测 到 。 本 文 方法 在 头 部 、 躯 千 、 左 臂 、 右 臂 、 文 提 出 基于 结构 化 SVM 卷 积 神经 网 络 的 层次 化 模型 将 
左 腿 以 及 右 腿 共 六 个 部 位 的 姿态 估计 性 能 均 高 于 其 他 几 种 对 ”SSVM 模型 转换 为 神经 网 络 模型 ， 因 此 它 有 具有 神经 网 络 的 固 
比方 法 。 此 外 ， 将 本 文 方法 与 文献 [6~8] 方 法 对 PARSE 数据 ” 有 能 力 , 将 误差 反 向 传播 到 较 低 层 ， 并 计算 确切 的 SSVM 损 
集中 的 图 像 Im0001-Im0008 图 像 (图 5) 进行 目标 检测 ， 结 R, 同时 通过 基于 次 梯度 的 方法 来 学 习 原 始 SSVM 解决 了 这 
RUR 1 所 示 ， 类似 于 图 5 结果 ， 本 文 方法 对 8 幅 图 像 的 识 。 个 问题 。 因 而 ， 对 比 结果 均 显 示 提 出 的 方法 具有 更 强 的 识别 
别 成 功率 也 均 高 于 对 比方 法 。im0001-im0008 是 PARSE 数据 ”性 能 。 
i m 口 文献 [6] DX) 加 文献 [g] 回 本 文 方法 
9| gy K zy 7 7 nu gÉ 5 
Jas DAS nm. | mad nus mai na 
^ f / y / "n y / f TA p 
AA PAA Hua uai wa WA ØE 
s 50 A VA PA TAE TAE VAL IAE 
à A AE AL A A TA PAE 
& 40 A OE A A A: uA A 
dA4 A WA uA uu uA Hua 
30 VAL PA PAK AA A A VIA 
A A A PAE AE AE AC 
20 A | AE: A dA AE A 
Ge A uA PAA TAA WA LA 
10 Ac VAL: A PA VIA AE MA 
i Hd Z f% A HA. 小 5 17 2 dA: P Z 
Scr ài 45 左 腿 
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Fig.4 The comparison of attitude estimation performance of several methods 
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Fig.5 Image Im0001-Im0008 in the PARSE dataset 
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Table 1 The comparison of target detection performance of several methods 


识别 成 功率 (平均 PCP) 


ds Im0001 Im0002 Im0003 Im0004 Im0005 Im0006 Im0007 Im0008 
文献 [6] 66.89 76.95 68.95 68.94 73.53 75.34 78.34 68.24 
文献 [7] 68.94 65.97 76.45 78.65 72.87 69.85 79.43 78.56 
文献 [8] 65.97 73.95 76.46 67.43 80.23 70.54 76.23 77.67 
本 文 方法 77.76 79.98 82.85 80.34 82.73 80.43 84.83 78.76 
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